English-Urdu Parallel Corpus

提供者:朱述承
访问地址:http://ufal.mff.cuni.cz/umc/005-en-ur/

简介

UMC005英语 - 乌尔都文是英文和乌尔都语文本的平行语料库,带有句子对齐。语料库可以用于统计机器翻译的实验。

文本来自四个不同的来源:

古兰经
圣经
Penn Treebank(华尔街日报)
Emille语料库
我们提供古兰经和圣经的宗教文本供直接下载。由于许可原因,Penn和Emille文本无法自由重新发布。但是,如果您已经拥有原始语料库的许可证,则我们可以提供脚本来重新创建磁盘上的数据。我们的修改包括但不限于以下内容:

纠正乌尔都语翻译和Emille文本的手动句子对齐。
手动纠正其他语料库的句子对齐。
我们的数据拆分(培训 - 开发 - 测试),以便我们发布的实验可以被复制。
Tokenization(可选,但需要重现我们的实验)。
例子的标准化(可选)欧洲与乌尔都语数字,欧洲与乌尔都语标点符号,删除乌尔都语变音符号。

文件格式

UMC005以纯文本文件的形式发布(Unicode UTF-8,Unix换行符)。

一个文件对应一种语言(英语/乌尔都语)的源文件(古兰经/圣经)的一部分(培训/开发/测试)。相同源和部分的英文和乌尔都语版本具有相同的行数,而行对应于文本的一个部分,通常是一个句子,并且两个相同编号的行是彼此的翻译。

相关论文

Bushra Jawaid, Daniel Zeman: Word-Order Issues in English-to-Urdu Statistical Machine Translation.